Day07-Model Catalog 裡的兩種部署模式

2024 iThome 鐵人賽

DAY 7

生成式 AI

16th鐵人賽 azure machine learning model catalog llama3.1

537 瀏覽

在 Azure Machine Learning 的 Model Catalog 裡，有兩種部署 model 的方式，分別是 Managed compute 和 Serverless API。

1. Managed compute

這就是昨天傳統的模型部署方式，模型權重會被部署到專用的 VM，並通過 Azure Machine Learning 提供的受管端點（Managed Online Endpoints）進行 real-time inference。

模型會被部署到專用的虛擬機上，部署後，Azure 會自動生成 REST API，方便開發者通過 API 請求進行模型推理。

計費方式是根據虛擬機的 CPU 或 GPU 核心小時（Core Hours）進行計費，這代表要支付虛擬機持續運行的成本。

這一台 VM 不會顯示在 Azure VM 裡面，而是只能在 Azure ML 裡的 Endpoints 被找到。所以你有可能架了一個起來玩，忘記刪掉，就被一直扣錢。你看帳單是 VM，但是在 Azure VM 裡遍尋不著，最後才發現這是在 Azure ML 裡的。

這是我損失 1000 多美元的經驗，慎之！

無伺服器 API是一項全新的服務，可以按需求付費的模型部署方式，通過 Models as a Service (MaaS) 模式來提供模型推理。這種方式不需要專用的基礎設施，模型會被託管在 Azure 的中央 GPU 池中，並通過 API 進行訪問。

Serverless API 按照 API 的輸入和輸出進行計費，通常以 tokens 為單位，根據模型處理的請求數量收費。你只需為實際使用的資源付費，無需承擔持續運行基礎設施的費用，也減少了部署和維護的複雜性。

此外，也不會像昨天的 llama 3.1 8B 要求的資源太大，還要額外申請伺服器核心的問題。

初期開發或小規模應用：當應用處於初期階段，或推理請求量較小時，Serverless API 的低成本、高靈活性是最佳選擇。
臨時使用或 Poc：如果您的應用推理需求是臨時的或是 PoC 中，Serverless API 可以在不需要時節省成本，當需求增加時再根據實際使用量付費。
開發敏捷性要求高：對於需要快速迭代、實驗或短期項目的場景，Serverless API 免去了基礎設施的配置負擔，讓開發者專注於應用的開發與優化。